#atención multicabeza

Una perspectiva unificada sobre la dinámica de Transformers profundos

Descubre cómo la dinámica de atención en Transformers profundos se modela con ecuaciones Vlasov, revelando clustering y evolución de tokens.

2026-06-19 · 2 min

Modelado 3D Oral con Distribución de Vértices Mejorada por Correspondencias

Nueva función de pérdida con emparejamiento húngaro y repulsión mejora la uniformidad de vértices en modelos 3D orales, reduciendo la agrupación.

2026-06-16 · 2 min

Análisis de campo medio de auto-atención multicabezal bajo entropía cruzada

Explora un nuevo marco teórico de campo medio para la auto-atención multicabezal, estableciendo condiciones de convergencia y estabilidad bajo entrenamiento con entropía cruzada.

2026-06-10 · 2 min